连载(5):统计图形艺术——点图
中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。
生物医学研究产生的数据纷繁复杂,合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果,这就是医学统计图形的魅力。
历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处示例待优化,欢迎提供素材。
克利夫兰点图Cleveland's Dot plot
美国计算机科学家William S. Cleveland于1984年发明了点图,简要阐述点图的设计要素,作为条形图或饼图的替代。心理学研究提示,人类感知数据点在标尺上的位置,比感知条形长度更为直观。Cleveland在其著作《Elements of Graphing Data》中用点图描述了世界21种语种的使用人数(图 5.1),直观易懂 [1],其1984年发表于The American Statistician的论文亦有描述 [2]。美国耶鲁大学统计学和政治学教授Edward Tufte,作为信息设计的先驱者,撰写过《视觉解释》、《美丽的证据》等一系列书籍,亦推崇点图。
图5.1:1931和1932年美国南加州
多地大麦产量比较
用于展示多个指标的统计量(如:均数,率,重要性评分,变异度,等),以体现不同指标的大小关系。
用于展示多个指标在有限组别(例如2-3组)的统计量,以体现各指标在组间大小关系。
例: 以出生队列元素组学研究为例,该研究中分析了56个元素和儿童3岁左右Bayley Scale量表得分的关联性。
为了展示方便,下图列举部分元素和儿童认知得分(cognitive score)之线性回归的回归系数(图 5.2)。模型校正了母亲怀孕年龄、BMI、学历等协变量。
图5.2:56个元素和儿童认知得分
的关联性
例:续上例。
在常规点图基础上取消标尺(点图中的虚线),改为从基线到顶点的实线,形似棒棒糖,因而得名(图 5.3)。其长度可体现值之大小(类似于条形图的功能)。
其长度可体现值之大小(类似于条形图的功能)。
可选某一值作为参照,兵分两侧,点的颜色可根据数值而设。与线图类中的针板图或落线图有类似。
图5.3:56个元素和儿童认知得分
的关联性
例:续上例。(Environment International 上即将见刊)
在棒棒糖图中添加弧线将具有交互效应的元素相连,可同时展示元素的回归系数大小以及哪些元素之间存在交互作用(图 5.4)。
红色点表示脐带血血清元素暴露水平与贝利婴幼儿发展量表第三版(BSID-III)综合评分正向关联;蓝色点表示红色点表示脐带血血清元素暴露水平与BSID-III综合评分负向关联。
橙色曲线表示元素交互作用对;纵坐标表示关联系数大小。
图5.4:基于Stability LASSO的
儿童运动功能相关联元素的筛选结果
(连线者表示存在交互作用)
在同一组中若有两个数值,可将两点画于同一参考线上(如下图中的同一行),并以实现相连,即为哑铃图。
如本例中,每个元素与认知得分的单因素(绿点)和校正协变量后(红点)的回归系数画于一副图中,以横线相连,体现校正前后回归系数的变化(图 5.5)。
图5.5:56个元素和儿童认知得分
的关联性
(协变量校正前后哑铃图)
若多个指标具有分类(分层)属性,则可按照分层因素来绘制点图,将同一类的指标聚集到一起,不同分层的变量用不同的颜色来标示。
例1:本例用点图展示不同品牌汽车的燃油效率(每加仑的公里数),按照发动机缸数作为分层因素(图 5.6)。
图5.6:不同品牌汽车的燃油效率
例2: 本例展示2018年中国15个省份年均PM2.5和PM10浓度的分组点图(图 5.7)。
我国环境空气质量标准中,PM2.5和PM10年平均标准分别为35、70微克/立方米。
由图中可观察到越有一半的省份PM2.5超过标准;相比可观察到海南省的空气质量最佳。
图5.7:2018年中国部分省份
年均PM2.5和PM10浓度
曼哈顿图是GWAS(全基因组关联分析)结果展示的一种方式,其本质是点图,形似夜晚站在纽约查尔斯河对岸观看的曼哈顿岛高楼林立,因而得名。将在“组学数据可视化”专题中,再详述。
曼哈顿图中每个点代表一个SNP,纵轴为每个SNP计算出来的取-log10后的P值,横轴即为SNP所在的染色体通常用不同的颜色表示。
基因位点的P值越小即-log10转化后越大,其与表型形状或疾病的关联程度越高。
本例引用一篇关于注意缺陷与多动障碍(Attention deficit and hyperactivity disorder,ADHD)的GWAS研究 [3],用曼哈顿图展示GWAS分析的结果(图 5.8),其中12个全基因组中关联程度较高的位点用黄色菱形展示。
图5.8:注意力缺陷与多动障碍
的全基因组关联研究结果
克利夫兰点图的Y轴一般为分类变量(不同指标,或不同组别)。 数值差异巨大的,会因个别异常值导致其他点压缩至底部而无法区分,可对数值进行尺度变换。 克利夫兰点图和棒棒糖图、针板图、落线图原理相同,只是用不同的可视化手段将观众的注意力吸引到不同的信息元素上。
参考文献:
Cleveland WS. The elements of graphing data. Wadsworth Publ. Co.; 1985.
Cleveland WS, Mcgill R. Graphical perception: Theory, experimentation, and application to the development of graphical methods - journal of the american statistical association - volume 79, issue 387.
Demontis D, Walters RK, Martin J, Mattheisen M, Als TD, Agerbo E, et al. Discovery of the first genome-wide significant risk loci for attention deficit/hyperactivity disorder. Nature genetics. 2019;51(1):63–75.
写作:魏永越*,张隆垚
排版:李 颖
审阅:陈 峰
欢迎供稿 | 敬请斧正
easyPlot小组 (easyplot@126.com)
责任作者 (weiyongyue@126.com)
Powered by 百步科技
连载(2):统计图形艺术——线图
连载(3):统计图形艺术——饼图
连载(4):统计图形艺术——直方图